iT邦幫忙

2023 iThome 鐵人賽

DAY 11
0

決策樹( Decision Tree )

是用於分類和迴歸任務,一系列的規則和條件來對資料進行分類或預測

  • 節點(Node) 每個節點表示一個特徵或屬性,對資料進行分割
  • 分支(Branch) 每個分支代表一個特徵值或特徵值的範圍,資料根據特徵值分配到不同的分支
  • 葉節點(Leaf Node) 每個葉節點代表一個結果或預測值,在分類問題中,每個葉節點是類別,在回歸問題中,葉節點是連續的數值

決策樹的分割特徵

資訊增益(Information Gain)(用於分類問題)

資訊增益是衡量在某個特徵的基礎上,將資料集切割成不同類別的純度或不確定性減少的程度
https://chart.googleapis.com/chart?cht=tx&chl=%5Cbegin%7Bequation%7D%20%5Ctext%7BInformation%20Gain%20(IG)%7D%20%3D%20%5Ctext%7BEntropy%7D(S)%20-%20%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cfrac%7B%7CS_i%7C%7D%7B%7CS%7C%7D%20%5Ccdot%20%5Ctext%7BEntropy%7D(S_i)%20%5Cend%7Bequation%7D

IG:資訊增益
Entropy(S):原始資料集 S 的熵(Entropy)或不確定性

熵的公式
https://chart.googleapis.com/chart?cht=tx&chl=%5Cbegin%7Bequation%7D%20%5Ctext%7BEntropy%7D(S)%20%3D%20-%5Csum_%7Bi%3D1%7D%5E%7Bc%7D%20p_i%20%5Ccdot%20%5Clog_2(p_i)%20%5Cend%7Bequation%7D

n:特徵可能的分割數
|S|:原始資料集 S 的大小
∣Si∣:特徵 i 的分割後的子集小
Entropy(Si):特徵 i 分割後子集的熵

基尼不純度(Gini Impurity)(用於分類問題):

基尼不純度從一個節點中隨機選取一個樣本,它被錯誤分類的概率,衡量資料集的不純度或混亂程度
https://chart.googleapis.com/chart?cht=tx&chl=%5Cbegin%7Bequation%7D%20%5Ctext%7BGini%20Impurity%7D(S)%20%3D%201%20-%20%5Csum_%7Bi%3D1%7D%5E%7Bc%7D%20(p_i)%5E2%20%5Cend%7Bequation%7D

Gini Impurity(S):資料集 S 的基尼不純度
c:類別的數量
pi:類別 i 在資料集 S 中的比例
基尼不純度的值範圍在 0 到 1 之間
基尼不純度越低,表示資料集中的混亂程度越低,反之亦然

參考資料

https://medium.com/jameslearningnote/%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90-%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-%E7%AC%AC3-5%E8%AC%9B-%E6%B1%BA%E7%AD%96%E6%A8%B9-decision-tree-%E4%BB%A5%E5%8F%8A%E9%9A%A8%E6%A9%9F%E6%A3%AE%E6%9E%97-random-forest-%E4%BB%8B%E7%B4%B9-7079b0ddfbda


上一篇
學習小法術~正則化跟正規化
下一篇
Into The Woods~隨機森林
系列文
機器學習新手行,相信你也行!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言